Le design fantômatique des communautés savantes

Enjeux phénoménologiques, sociaux et politiques de trois formats de données en usage dans l’édition scientifique contemporaine

Robin de Mourat

Introduction

IntroductionLe design fantômatique des communautés savantes
Dans le système de la communication scientifique contemporainLe système de la communication scientifique est le dispositif de médiation entre tous les acteurs présents et futurs de la recherche. .(Beaudry, 2011, p. 21)
, un écrit existe pour les communautés savantes auxquelles il est adressé quand il est présent dans une grande variété d’espaces de visibilité (notamment bibliothèques, librairies, mais aussi sites web institutionnels ou d’éditeurs, moteurs de recherche, réseaux sociaux, archives en ligne,...). La condition « post-numérique » des écrits scientifiques, selon laquelle l’expérience de ces derniers se voit toujours affectée à un moment ou à un autre par des procédures computationnelles (Ludovico, Cramer, & Bortolotti, 2016), induit chez eux une capacité à se prêter à des jeux de recombinaison et de reformulation multiples, lesquels sont caractéristiques du régime de l’éditorialisation (Vitali Rosati, 2016). Cet état implique également une pluralité de modalités de fréquentation et de contextes sociaux, techniques et esthétiques, qui construisent autant de cadres interprétatifs pour la lecture, l’écriture et l’édition des textes (Drucker, 2011) .
Afin de tenir compte de la multiplicité des contextes et des systèmes socio-techniques supportant l’activité des communautés savantes, les concepteurs de dispositifs éditoriaux orientent de manière croissante leur méthodologie d’élaboration en fonction d’une représentation métaphorique séparant « contenu » et « présentation » (Clark, 2007). Selon cette métaphore opérationnelle, l’enjeu de conception des environnements de communication scientifique serait alors de permettre une circulation optimale des « contenus » qui préserve leur substance cognitive tout en leur autorisant une diversité de formes. Pour ce faire, il s’agirait de les « structurer » en accord avec le sens qu’ils seraient censés transporter, et également avec la diversité d’opérations de manipulation (extraction, indexation, enrichissement,...) permettant leur passage d’un espace de visibilité à un autre. Les formes de « présentation » de ces contenus se verraient alors aménagées de manière incidente et seconde, en fonction de pratiques et de contextes locaux.
Dans le passage des « contenus » à leur « présentation » intervient cependant un type d’acteur qui vient questionner ce partage métaphorique : celui des formats de données. L’étude de ces derniers, qui sont situés entre cognition et matérialité, formalisation et mise en forme, persistants dans leur présence discrète au fil des diverses existences des écrits, permet d’interroger la place des activités de design dans les environnements polymorphiques de la communication scientifique contemporaine.

1. Les formats de données : passeurs et prescripteurs souples des communautés savantes

1. Les formats de données : passeurs et prescripteurs souples des communautés savantesLe design fantômatique des communautés savantes
Dans nos expériences contemporaines des environnements numériques, les formats de données apparaissent à la périphérie de notre attention, au détour d’une extension de fichier ou d’un en-tête de document. Ils révèlent parfois leur présence dans des moments de dysfonctionnement, face à un format incompatible, inconnu, ou défaillant (Boulétreau & Habert, 2014) , nous laissant voir la fragilité du lien entre les « contenus » auxquels on cherche à accéder, et le complexe dispositif qui les sous-tend. Par ailleurs, s’ils sont connus des éditeurs et autres médiateurs du système de la communication scientifique, ils restent très majoritairement cachés dans le cadre des pratiques auctoriales : une récente étudeÉtude en ligne par questionnaire (en 6 langues) conduite du 10 Mai 2015 au 10 Février 2016 par Bianca Kramer et Jeroen Bosman, Université d’Utretch. Elle avait pour objectif de dessiner le paysage logiciel des pratiques de communication scientifique à travers les pays et les disciplines. On se concentre ici sur la question relative aux outils d’écriture des contributions utilisés par les chercheurs universitaires. Pour plus d’informations sur le contexte de l’étude et la méthodologie, voir : https://101innovations.wordpress.com/https://101innovations.wordpress.com/ .
Les formats de données sont d’abord attachés à une fonction technique : un format spécifie un ensemble de conventions pour l’adressage et l’encodage d’inscriptions destinées à être manipulées par un programme (Bachimont, 2007, p. 237), permettant la circulation de données dans les espaces ouverts du web, mais aussi à l’intérieur même de nos machines. Cependant, du fait de leur nature contractuelle et consensuelle, ils articulent un ensemble d’acteurs hétéroclites, puisque leur sont attachés à la fois des dispositifs techniques qui peuvent les utiliser, et un ensemble de pratiques, de conventions culturelles et de communautés d’utilisateurs. L’archéologie de formats de données numériques tels que le MP3 (Sterne, 2012) ou le PDF (Gitelman, 2014) nous révèle par ailleurs que l’établissement de formats est le fruit d’un complexe processus de négociation entre des acteurs économiques, techniques et culturels. Ainsi, de par leur rôle de médiateur, ils équivalent à une « chaîne de traduction et de médiation qui relie en les transformant des acteurs humains et des acteurs non-humains, institutionnels et techniques » (Quintyn, 2015). Les formats exercent donc une activité sociale dans le sens où ils articulent des collectifs socio-techniques.
Par ailleurs, les formats de données agissent sur un registre phénoménologique : ils conditionnent l’expérience d’un monde pour lequel ils définissent des règles de fonctionnement mais aussi des possibilités d’expérience. En tant que langages formels, reposant sur la définition d’une grammaire et d’un vocabulaire qui permet la manipulation des données qu’ils encodent et structurent, ils sont d’abord conçus en vue d’autoriser un certain nombre de procédures techniques. Cela dit, ils sont tout autant conçus dans l’optique d’opérations de formalisation – c’est-à-dire consistant à « rapporter un contenu ou une expression signifiante à des symboles vides de sens que l’on peut dès lors manipuler par des règles mécaniques » (Bachimont, 2007), que de procédures de mise en forme, relatives au conditionnement préalable des modalités de fréquentation esthétique des « contenus » ou « données ». Ils font donc également advenir des manières de produire et de structurer des expériences, participant d’une phénoménologie de la computation (Berry, 2011, p. 39). À ce titre, les formats occupent une place importante dans les systèmes médiatiques dans la mesure où ils se situent à l’interface entre des fonctionnements techniques et des expériences esthétiques (Sterne, 2012, p. 6‑7).
Puisque les formats rganisent des collectifs et des procédures socio-techniques, ils sont l’expression d’une éthique, dans le sens où ils impliquent des règles d’action pour la manipulation des écrits qu’ils encodent (Galloway, 2012). Corollairement à leur dimension éthique, ils recèlent un enjeu politique : le choix d’un format a pour effet « de rendre possibles des compatibilités, mais aussi de provoquer ou de garantir des incompatibilités » (Zerbib & Collectif, 2015, p. 17), comme en témoignent les débats sur l’ouverture et la propriété des formats de données circulant dans les espaces numériques. Les stratégies d’adoption ou d’imposition d’un format standard ont ainsi été maintes fois utilisées comme des instruments permettant de capter, de constituer ou d’enfermer des communautés d’utilisateurs. Développer ou adopter un format revient à constituer et partager des collectifs attachés à des pratiques spécifiques, comme celles de l’édition scientifique.

2. Trois formats et leur design

2. Trois formats et leur designLe design fantômatique des communautés savantes
Je compte maintenant porter à l’attention du lecteur l’étude de trois formats en usage dans les systèmes éditoriaux contemporains (TeX,XML/TEI et Markdown), afin de l’introduire aux implications de leur influence sociale, phénoménologique et politique pour la constitution des communautés savantes. Ces trois formats participent chacun d’une forme de dualité dans leur mode d’appréhension entre le temps de la lecture et celui de l’écriture : avec eux, ce qui est écrit ou édité ne ressemble pas à ce qui sera publié. Ils ne sont pas cachés aux personnes qui les mobilisent pour préparer les publications, et sont manipulés dans le cadre d’interfaces qui exposent leur grammaire et leur vocabulaire, engageant à une fréquentation intime de leur structure et de leur logique de formalisation. Et pourtant, malgré leur dimension duelle, chacun d’eux met au défi la métaphore de conception séparant « contenu » et « présentation » en brouillant ou en complexifiant les frontières entre ces deux pôles. Ces trois cas sont enfin choisis car ils articulent un ensemble d’acteurs techniques et sociaux diversifiés, pour lesquels ils impliquent différents modes d’appréhension de l’acte éditorial et d’organisation des communautés savantes.

2.1 TeX : un paradigme manipulatoire

2.1 TeX : un paradigme manipulatoireLe design fantômatique des communautés savantes
TeX est un format dédié à la mise en forme de documents scientifiques. Il est le fruit des travaux de Donald Knuth, qui, désolé par la piètre qualité typographique des documents scientifiques, a consacré une partie de sa carrière au développement de langages pour la conception de systèmes d’écriture à même de produire des documents scientifiques de bonne qualité graphique (Knuth, 1988). Ce format permet, au moyen d’un algorithme de conversion utilisant l’écrit d’un auteur, de produire des textes dont la mise en page et les détails typographiques sont générés automatiquement. Il est souvent décrit comme un « typographe virtuel » permettant de prendre en charge tous les aspects graphiques d’une publication en les traitant de manière conforme aux conventions en vigueur dans l’édition scientifique.
Un document TeX est un fichier de texte brut qui représente une série d’instructions à exécuter pour mettre en page le document à publier. Le format est dit « compilé » dans la mesure où le fichier écrit par l’auteur doit être consommé par un programme pour produire le document final. Ce dernier est généré à travers la transformation des contenus écrits en TeX dans un autre format – généralement, PDF ou HTML. L’environnement d’écriture d’un document TeX est donc toujours composé d’un écrit source – mêlant texte et instructions de mise en page – et d’un convertisseur, permettant de produire le document propre à la lecture.

fig. 1 (p.)

Le format TeX et ses variations représente un premier cas de remise en question de la métaphore de conception « contenu/présentation » : s’il implique un mode de constitution en deux temps des documents, la grammaire de composition qu’il expose est tournée vers des considérations graphiques. Son mode de formalisation des textes selon le principe du « typographe virtuel » implique un paradigme manipulatoire pour la conception des documents scientifiques, dans lequel l’acte d’écriture consiste à spécifier un certain nombre d’opérations typographiques plutôt que décrire un « contenu ».
Sur le plan de son activité d’articulation sociale, TeX est le fruit de collaborations et de développements successifs par une communauté ouverte de chercheurs. Ne faisant pas l’objet d’un standard établi institutionnellement, il a été soumis à de nombreuses évolutions et variations au fil du temps. La plus ancienne et la plus répandue d’entre elles, le format LaTeX développé par Leslie Lamport dans les années 1980, exprime la volonté d’une séparation plus nette entre les « contenus » des textes et leur présentation. Le projet COnTeX, de son côté, représente une philosophie plus proche des intentions initiales de Donald Knuth dans la mesure où il maintient une forme de proximité entre les écrivains et la mise en page de leur texte. Ainsi, dans ses usages comme dans l’histoire de sa conception, TeX articule et partage des communautés savantes motivées par des besoins mais également des conceptions de l’acte éditorial différentes.

2.2 XML/TEI : construire des mondes avec des arbres

2.2 XML/TEI : construire des mondes avec des arbresLe design fantômatique des communautés savantes
Le projet TEI, pour Text Encoding Initiative, vise à établir et stabiliser collectivement un format à la fois standardisé et modulable pour la description de documents textuels dans divers contextes scientifiques. Il s’agit, pour chacun des projets utilisant TEI, de construire un vocabulaire spécifique aux objets de recherche qui y sont manipulés, ainsi qu’aux chaînes d’opérations auxquelles seront soumis les documents encodés. Cependant, il s’agit aussi de préserver une forme d’interopérabilité pour les données en utilisant une grammaire et des éléments de vocabulaire conventionnels et contrôlés Voir à ce propos le site du consortium TEI (Burnard, 2015), section guidelines. qui permettront leur réutilisation et leur circulation. Ainsi, construire un document avec TEI revient à la fois à respecter des standards et à définir un monde de signification spécifique à des objectifs scientifiques ou éditoriaux donnés, mettant en lumière les conditionnements phénoménologiques et éthiques inhérents à l’adoption d’un format.

fig. 2 (p.)

TEI est un format dédié à la description de contenus plutôt qu’à leur présentation, avec laquelle il entretient un rapport complexe. Fondé sur un vocabulaire d’objets et de propriétés pouvant être utilisées pour l’encodage d’un document, il permet de décrire non seulement des éléments textuels, mais également leurs caractéristiques graphiques (titres, annotations,...) et éventuellement leur disposition dans l’espace des pages. Ici, la frontière entre contenu et présentation se voit donc une fois de plus brouillée, puisque TEI permet de décrire tout autant des informations qu’on attribuerait spontanément au « contenu » des documents qu’à leur matérialité ou leur disposition graphique. Puisqu’il s’agit d’un format de description et non de composition, il n’existe cependant pas dans TEI d’équivalence stricte entre le format de description et ses modes de fréquentation à l’écran, et il est possible de faire appel à un autre format de données pour transformer les données descriptives en une structure propre à être mobilisée pour la publication Les feuilles XSLT – pour Extensible Stylesheet Language Transformations – consistent ainsi à spécifier un ensemble de transformations permettant de passer d’un vocabulaire à un autre – par exemple de TEI à HTML, le langage de balisage utilisé pour décrire des pages web – pour la représentation d’un document. . Un texte décrit selon TEI existe ainsi comme une matière appelée à être sujette à de multiples manipulations dans les environnements éditoriaux, sans que cette matière soit nécessairement circonscrite à des « contenus » dépourvus de dimensions plastiques et formelles.
Le format TEI est utilisé majoritairement pour des projets visant à manipuler numériquement des représentations de documents analogiques (archives de recherche, éditions critiques de textes anciens). Il est néanmoins également utilisé de manière croissante dans le champ de l’édition et de la composition de publications scientifiques, comme en témoigne par exemple son usage par l’organisation Open Edition (Rivière, s. d.). Dans ces différents contextes, les documents manipulés, bien qu’ils puissent être directement écrits au moyen d’un éditeur textuel standard, le sont souvent au moyen d’appareils logiciels permettant de faciliter leur visualisation et leur manipulation.
Si il permet une grande diversité dans les vocabulaires de description des documents, le format TEI impose de manière stricte une grammaire et un mode de structuration des écrits qui s’inscrit dans l’histoire globale des formats de balisage. En 1969, Charles Goldfarb inventa un langage de description textuelle dédié à représenter des contenus indépendamment des capacités et du mode de fonctionnement des imprimantes. À partir de ce dernier, intitulé Generalized Markup Language, est né le format SGML puis l’une de ses spécifications les plus populaires, XML – pour Extensible Markup Language – dont TEI est une spécialisation. Ces langages, inscrits dans une longue généalogie, partagent un mode de structuration des contenus selon le modèle de l’arbre, qu’on pourrait décrire comme une structure hiérarchique imbriquant des élements les uns dans les autres (par exemple, un chapitre, contenant des pages, contenant des paragraphes, contenant des mots …). La structure formelle du format TEI implique donc un conditionnement phénoménologique pour la modélisation des documents, dans la mesure où elle complique par exemple la description de chevauchements ou de localisation multiple pour les éléments Le langage permet de décrire de telles relations, via l’usage de définitions ou la répétition de certaines informations dans l’arbre de description des données. Néanmoins ces tactiques de contournement provoquent rapidement une importante complexité et des problèmes de redondance, démontrant l’impropreté du format à décrire des relations de ce type. .
La spécification TEI est par ailleurs un exemple édifiant de la dimension sociale des formats, en ce qu’elle est le lieu d’une importante coordination internationale et pluridisciplinaire, qui suscite de multiples évènements, publications et discussions portant sur les implications épistémologiques et méthodologiques des choix effectués pour constituer ce format. Quand elle est utilisée pour la publication scientifique, elle influence par ailleurs profondément des portions importantes de la chaîne d’acteurs constituant le système de la communication scientifique, conditionnant et structurant les méthodologies de travail des éditeurs, des bibliothèques et autres infrastructures de recherche, mais aussi les stratégies de présentation et de design permises par ses caractéristiques formelles.

2.3 Markdown : une esthétique du balisage

2.3 Markdown : une esthétique du balisageLe design fantômatique des communautés savantes
Le format Markdown représente encore un autre rapport aux environnements techniques et aux expériences d’écriture, d’abord parce qu’il s’agit d’un format non spécialisé pour l’édition scientifique, ensuite parce qu’il est initialement tourné vers la publication en ligne. Développé en 2004 par John Gruber et Aaron Swartz, Markdown est né dans le contexte de la généralisation des sites web autorisant l’écriture de contenus en ligne – blogs, carnets,... –. Sa création fut motivée par le projet de faciliter la composition de code HTML (format utilisé pour la structuration des pages web) sans pour autant cacher ce dernier derrière une interface d’écriture mimant le résultat graphique montré au public. Pour ce faire, le format Markdown spécifie un ensemble de conventions d’encodage permettant d’écrire et de structurer des contenus au moyen d’une grammaire et d’un vocabulaire plus simples et moins étendus que le format HTML, réduisant la quantité de « métatexte » (Drucker, 2011) à produire pour composer un document.

fig. 3 (p.)

Le format Markdown implique un rapport paradoxal à la forme et à la « présentation » des textes, puisqu’il dénote un souci esthétique important pour la pratique de l’écriture – il est voulu élégant à lire et facile à écrire – tout en délégant à d’autres dispositifs techniques les questions de mise en forme pour la lecture des écrits par le public. Le fait qu’il soit pensé pour être lu par les auteurs en tant que tel manifeste une nouvelle nuanciation dans la différenciation stricte entre le « code » et son interprétation, entre le « contenu » et sa fréquentation.
Étant un format souple et ouvert, Markdown a été progressivement adapté et étendu pour prendre en charge diverses pratiques d’écriture spécifiques à des contextes donnés – de la formule mathématique à la partition musicale. La mobilisation du format dans les pratiques scientifiques, si on l’observe pour l’instant rarement dans les dispositifs éditoriaux utilisés en sciences humaines et sociales, est de plus en plus présente dans les contextes associés aux sciences de la nature et aux disciplines technologiques. Markdown est ainsi utilisé par plusieurs projets de systèmes de publication adressés aux communautés savantesVoir par exemple la spécification Scholarly Markdown (« ScholarlyMarkdown », s. d.) tourné vers l’usage de citations et d’équations, plus récemment, du projet idyll tourné vers une utilisation extensive de graphiques et éléments interactifs (« Idyll », 2017) . , et est également mobilisé dans variété d’environnements d’édition de notebooks scientifiques, logiciels qui permettent aux chercheurs de publier conjointement des textes argumentatifs et des portions de code exécutable – démonstrations mathématiques, traitement et visualisation de données, etc. Voir par exemple des environnements tels que Rstudio (« RStudio », 2011) , Jupyter (« Project Jupyter », 2014) ou Observable (« Observable », 2018). . Cette multitude de projets et de variations illustre un mode d’existence fluide pour les écrits effectués avec Markdown, qui se voient associés et hybridés avec d’autres langages dans divers services et dispositifs de publication plus ou moins expérimentaux. De fait, sa dimension extensible et son inscription dans les communautés du web l’amène à articuler des collectifs qui débordent souvent le strict champ des communautés scientifiques.
Par l’étude des trois formats présentés dans ce texte, on a pu dresser un aperçu des diverses modalités d’influence des formats de données sur les pratiques et expériences de communication dans les communautés savantes. Ces derniers portent tout autant sur les modalités de circulation que de fréquentation des écrits scientifiques. Ils impliquent différents modes d’appréhension de l’activité d’écriture ou d’édition. Ils entretiennent également divers types de relation entre normativité et formation de collectifs, allant de la constitution de standards modulaires (TEI) à des logiques de reproduction et de diversification organiques (TeX et Markdown).

3. Faire avec les formats : un design fantomatique

3. Faire avec les formats : un design fantomatiqueLe design fantômatique des communautés savantes
À travers l’étude de trois formats de données en usage dans l’édition scientifique contemporaine, j’ai tenté de questionner et de mettre à l’épreuve la métaphore d’une séparation nette entre « contenu » et « présentation » dans les pratiques de conception qui tentent d’appréhender l’existence distribuée et polymorphique des écrits des chercheurs universitaires. Il apparaît en effet que tout « contenu » se trouve toujours formaté par un ensemble de constituants matériels, cognitifs et sociaux. Les nécessaires conventions pour la manipulation de ce « contenu » par des dispositifs de lecture, d’écriture et d’édition, impliquent des manières de concevoir l’activité d’écriture scientifique, son objet, et son mode d’interaction avec des collectifs, qui ne sont pas neutres. Les formats opèrent ainsi une triple influence sur les communautés savantes, sur les registres social (comment sont-elles articulées), phénoménologique (comment constituent-elles leurs objets et leurs expériences) et politique (comment se coordonnent-elles).
Les formats exercent une influence à la fois technique et esthétique qui implique un rapport complexe à la normativité pour les activités d’interprétation. En effet, ils opèrent sur le double registre de prescripteurs phénoménologiques et techniques, et d’acteurs permettant des jeux de transformation producteurs de sens. Ils interviennent « à la fois comme une matrice ou un type qui produirait de multiples occurrences non complètement substituables les unes aux autres, et comme un opérateur souple qui autoriserait [...] des usages secondaires, des déplacements, des conversions, des passages vers un autre que lui-même » (Quintyn, 2015) . Ils sont ainsi l’expression d’un design « fantomatique » dans le sens où ils opèrent, à la charnière entre fonctionnements et expériences, une influence de basse intensité mais néanmoins omniprésente sur les pratiques de mise en forme et d’interprétation des écrits scientifiques.
Face au mode de cadrage complexe opéré par les formats, je veux enfin ouvrir un questionnement sur l’attitude à adopter pour conduire des pratiques du design inscrites dans le système de la communication scientifique : j’en proposerai trois en guise de conclusion. Une première attitude relèverait de la participation à la spécification des standards techniques en usage pour l’établissement des formats d’édition : si la définition des formats de données inclut un enjeu de design, ceux-ci doivent être portés et entendus dans les collectifs qui construisent aujourd’hui les formats de la communication scientifique contemporaine. Une seconde attitude consisterait à jouer avec, ou à faire jouer, les formats existants pour rendre leurs opérations de cadrage visibles et saisissables, voire de les mettre au service des actes interprétatifs qu’ils peuvent générer : pour ce faire, des opérations de versionnage, de détournement et de traduction d’un format à un autre relèvent d’un ensemble d’opérations de design à même de faire travailler les conditions et les possibilités induites par les formats comme un élément constitutif d’un dispositif de recherche. La dernière attitude consiste à expérimenter des formats apocryphes en fonction de situations éditoriales spécifiques, et ce faisant interroger les formats à vocation générique en vigueur. Une attitude expérimentale vis-à-vis des nouveaux formats de publication, mais néanmoins soucieuse des besoins d’interopérabilité et de circulation des données, favoriserait un dialogue fertile et critique entre le champ du design et les communautés en charge de la gestion et de l’élaboration du système de la communication scientifique contemporain.

Figures

Références